(电子商务研究中心讯) 目前大数据很火,可是具体到什么是大数据,各个厂商又有着不同的答案。我们知道,行业内依靠四个特征界定大数据:Volume,体量巨大,PB级别;Variety,数据类型繁多;Veracity,价值密度低;Velocity,处理速度快。简而言之,需要从不同维度抓取海量数据并将其快速转变为有序的可用信息。
目前阶段,大数据解决的主要问题分为3类:拓展传统的商业智能(BI)领域。以前针对大数据量的统计、关联分析、趋势预测由抽样变成全量分析、将数据回流到各种报表;业务流程改。对各种数据进行聚合分析,用来做业务流程改进和考核的依据;数据商品和商业应用。通过对已有数据或数据处理能力进行服务化或产品化包装,形成数据产品或数据服务。
应用交付厂商太一星晨产品总监冯晓杰表示,大数据单从字面意思似乎不难理解,可以认为是海量级的数据,但是在这海量级的数据究竟意味着什么,这在很多业内外人士的概念里还纯在着一些认识误区。
大数据误区一:只要大就好
企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。
很多人提起大数据,如果不提上几嘴日处理数据量上GB、Hadoop集群拥有多少节点、总存储多少PB等诸如此类的语言,都很怕别人觉得自己不专业。但是,难道真的只有数据大了,才是大数据吗?
冯晓杰表示,数据如果仅仅是大那是没多大用处的!就好像资金的意义在于如何使用周转一样,数据大了,但不使用,让它孤零零地偏安机房一隅,那它就不是大数据了。比如不少传统的门户网站,基本上就处于坐拥金山却无福消费的境况。每天上亿的用户量,却只是简单的广告呈现,没有通过对数据的分析产生更多价值。
大数据误区二:只有技术大牛才懂大数据
大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。
传统的数据管理和业务分析工具及技术都面临大数据的压力,与此同时帮助企业获得来自大数据分析见解的新方法不断涌现。这些新方法采取一种完全不同于传统工具和技术的方式进行数据处理、分析和应用。这些新方法包括开源框架Hadoop,NoSQL数据库以及大规模并行分析数据库(如EMC的Greenplum,惠普的Vertica)。这意味着,企业也需要从技术和文化两个角度重新思考他们对待业务分析的方式。
冯晓杰表示,对于大数据的应用更多的是一种战略能力,而非细节的执行技能,这种能力是可以帮助决策者能从无尽的数据里看出商机看出价值,从而为企业带来更高的利润。而作为决策者并不用太关心在技术细节层面,大数据到底怎么技术生成,又是如何理顺提升用户体验的。
大数据误区三:是个公司都得上大数据
大数据是不是只适合大型企业呢?对于一般公司而言,根本就不可能拥有PB级别的数据,也无法支撑高昂的数据存储成本,而且大数据方面的技术人才十分稀缺。不过小企业也可以利用第三方的数据处理服务平台。至于企业是不是需要大数据要看自身的业务需要。
冯晓杰表示,虽然大数据固然是个香饽饽,但不是所有人都能消化得了,或者说并不是所有都有上大数据的必要,而是要衡量企业的现状,看清楚主次矛盾,或是要考量好投入产出的回报率,大数据并不是适合所有企业的现状。
大数据误区四:我就要海量数据
是不是如果有了海量的大数据就能助力企业发展呢?这又回到了大数据价值和金钱价值的类比概念上。显然,不流动的钱,是越放越没有价值,而基数越大,可能导致的损失就越大。
金钱如此,大数据亦然。只有像比特币玩家们一样,不停地使用数据,并以无比的热情挖掘数据背后的关系和价值,才能如滚雪球一般,使数据之间的相互关系更丰富更完善。同理,对于企业的大数据来说,只有充分利用大数据,让大数据充分流动起来,不断的实现增值效果,那么才有机会更大的释放大数据的能量。
因此,冯晓杰指出,对于企业决策者来说,看待大数据必须有一个清醒的认识,当在脑袋发热准备花大价钱上大数据之前,都一定得先想明白透彻了:我真的需要大数据吗?大数据真的能为我所驾驭吗?(来源:传送门)